이것은 대화형 노트북입니다. 로컬에서 실행하거나 아래 링크를 사용할 수 있습니다:
HuggingFace Datasets를 preprocess_model_input
Note: This is a temporary workaround
이 가이드는 Weave 평가에서 HuggingFace Datasets를 사용하기 위한 해결 방법을 보여줍니다.
이 프로세스를 단순화할 더 원활한 통합을 개발하기 위해 적극적으로 노력하고 있습니다.
이 접근 방식은 작동하지만, 외부 데이터셋 작업을 더 간단하게 만들 향후 개선 및 업데이트를 기대하세요.
설정 및 가져오기
먼저, Weave를 초기화하고 실험 추적을 위해 Weights & Biases에 연결합니다.HuggingFace 데이터셋 로드 및 준비
- HuggingFace 데이터셋을 로드합니다.
- 데이터셋 행을 참조하기 위한 인덱스 매핑을 생성합니다.
- 이 인덱스 접근 방식을 통해 원본 데이터셋에 대한 참조를 유지할 수 있습니다.
Note:
인덱스에서hf_hub_name
와 함께hf_id
를 인코딩하여 각 행에 고유한 식별자가 있는지 확인합니다.
이 고유한 다이제스트 값은 평가 중에 특정 데이터셋 항목을 추적하고 참조하는 데 사용됩니다.
처리 및 평가 함수 정의
처리 파이프라인
preprocess_example
: 인덱스 참조를 평가에 필요한 실제 데이터로 변환합니다hf_eval
: 모델 출력을 점수화하는 방법을 정의합니다function_to_evaluate
: 평가 중인 실제 함수/모델
평가 생성 및 실행
- hf_index의 각 인덱스에 대해:
preprocess_example
HF 데이터셋에서 해당 데이터를 가져옵니다.- 전처리된 데이터는 다음으로 전달됩니다
function_to_evaluate
. - 출력은 다음을 사용하여 점수가 매겨집니다
hf_eval
. - 결과는 Weave에서 추적됩니다.